Rfordatascience||使用readr进行数据导入

作者：虽虽___Hui | 来源：互联网 | 2023-10-14 13:35

使用R包提供的数据是学习数据科学工具的好方法，但是在某个时候，您希望停止学习，开始使用自己的数据。在本章中，您将学习如何将纯文本矩形文件读入r。在这里，我们只讨论数据导入的皮毛，但

使用R包提供的数据是学习数据科学工具的好方法，但是在某个时候，您希望停止学习，开始使用自己的数据。在本章中，您将学习如何将纯文本矩形文件读入r。在这里，我们只讨论数据导入的皮毛，但是许多原则将转换为其他形式的数据。

library(tidyverse) setwd("D:\\Users\\Administrator\\Desktop\\RStudio\\R-Programming") heights <- read_csv("heights.csv") Parsed with column specification: cols( earn = col_double(), height = col_double(), sex = col_character(), ed = col_double(), age = col_double(), race = col_character() )

?read_csv() ? read_csv2() ? read_tsv() ？ read_delim() ?read_fwf() ?read_log()

直接创建行内csv文件。

read_csv("a,b,c 1,2,3 4,5,6") # A tibble: 2 x 3 a b c 1 1 2 3 2 4 5 6

用skip=n来跳过前n行。

read_csv("The first line of metadata The second line of metadata x,y,z 1,2,3", skip = 2) # A tibble: 1 x 3 x y z 1 1 2 3

read_csv("# A comment I want to skip x,y,z 1,2,3", comment = "#") # A tibble: 1 x 3 x y z 1 1 2 3

无列名

read_csv("1,2,3\n4,5,6", col_names = FALSE) # A tibble: 2 x 3 X1 X2 X3 1 1 2 3 2 4 5 6

read_csv("1,2,3\n4,5,6", col_names = c("x", "y", "z")) # A tibble: 2 x 3 x y z 1 1 2 3 2 4 5 6

与R基础包进行比较

速度更快
可以生成tibble，不会将字符串向量转化为因子，不使用行名称，也不会随意改变列名称。
更易于重复使用。

解析向量

str(parse_logical(c("TRUE", "FALSE", "NA"))) #> logi [1:3] TRUE FALSE NA str(parse_integer(c("1", "2", "3"))) #> int [1:3] 1 2 3 str(parse_date(c("2010-01-01", "1979-10-14"))) #> Date[1:2], format: "2010-01-01" "1979-10-14" str(parse_integer(c("1", "2", "a"))) Warning: 1 parsing failure. row col expected actual 3 -- an integer a int [1:3] 1 2 NA - attr(*, "problems")=Classes ‘tbl_df’, ‘tbl’ and 'data.frame': 1 obs. of 4 variables: ..$ row : int 3 ..$ col : int NA ..$ expected: chr "an integer" ..$ actual : chr "a"

数值

parse_double("1.23") #> [1] 1.23 parse_double("1,23", locale = locale(decimal_mark = ",")) #> [1] 1.23 parse_number("$100") #> [1] 100 parse_number("20%") #> [1] 20 parse_number("It cost $123.45") #> [1] 123 # Used in America parse_number("$123,456,789") #> [1] 1.23e+08 # Used in many parts of Europe parse_number("123.456.789", locale = locale(grouping_mark = ".")) #> [1] 1.23e+08 # Used in Switzerland parse_number("123'456'789", locale = locale(grouping_mark = "'")) #> [1] 1.23e+08

字符串

#In R, we can get at the underlying representation of a string using charToRaw(): charToRaw("Hadley") #> [1] 48 61 64 6c 65 79 x1 <- "El Ni\xf1o was particularly bad this year" x2 <- "\x82\xb1\x82\xf1\x82\xc9\x82\xbf\x82\xcd" x1 #> [1] "El Ni\xf1o was particularly bad this year" x2 #> [1] "\x82\xb1\x82\xf1\x82ɂ\xbf\x82\xcd" parse_character(x1, locale = locale(encoding = "Latin1")) #> [1] "El Niño was particularly bad this year" parse_character(x2, locale = locale(encoding = "Shift-JIS")) #> [1] "こんにちは"

查看编码格式

guess_encoding(charToRaw(x1)) #> # A tibble: 2 x 2 #> encoding confidence #> #> 1 ISO-8859-1 0.46 #> 2 ISO-8859-9 0.23 guess_encoding(charToRaw(x2)) #> # A tibble: 1 x 2 #> encoding confidence #> #> 1 KOI8-R 0.42

因子

fruit <- c("apple", "banana") parse_factor(c("apple", "banana", "bananana"), levels = fruit) #> Warning: 1 parsing failure. #> row col expected actual #> 3 -- value in level set bananana #> [1] apple banana #> attr(,"problems") #> # A tibble: 1 x 4 #> row col expected actual #> #> 1 3 NA value in level set bananana #> Levels: apple banana

时间

parse_datetime("2010-10-01T2010") #> [1] "2010-10-01 20:10:00 UTC" # If time is omitted, it will be set to midnight parse_datetime("20101010") #> [1] "2010-10-10 UTC" parse_date("2010-10-01") #> [1] "2010-10-01" library(hms) parse_time("01:10 am") #> 01:10:00 parse_time("20:10:01") #> 20:10:01 parse_date("01/02/15", "%m/%d/%y") #> [1] "2015-01-02" parse_date("01/02/15", "%d/%m/%y") #> [1] "2015-02-01" parse_date("01/02/15", "%y/%m/%d") #> [1] "2001-02-15" parse_date("1 janvier 2015", "%d %B %Y", locale = locale("fr")) #> [1] "2015-01-01"

解析文件

既然您已经了解了如何解析单个向量，现在就回到开始部分，研究readr如何解析文件。在本节中，您将了解两个新内容:

readr如何自动猜测每个列的类型。
如何修改默认值。

启发式

guess_parser("2010-10-01") #> [1] "date" guess_parser("15:01") #> [1] "time" guess_parser(c("TRUE", "FALSE")) #> [1] "logical" guess_parser(c("1", "5", "9")) #> [1] "double" guess_parser(c("12,352,561")) #> [1] "number" str(parse_guess("2010-10-10")) #> Date[1:1], format: "2010-10-10"

challenge <- read_csv(readr_example("challenge.csv")) Parsed with column specification: cols( x = col_double(), y = col_logical() ) Warning: 1000 parsing failures. row col expected actual file 1001 y 1/0/T/F/TRUE/FALSE 2015-01-16 'D:/R-3.5.1/library/readr/extdata/challenge.csv' 1002 y 1/0/T/F/TRUE/FALSE 2018-05-18 'D:/R-3.5.1/library/readr/extdata/challenge.csv' 1003 y 1/0/T/F/TRUE/FALSE 2015-09-05 'D:/R-3.5.1/library/readr/extdata/challenge.csv' 1004 y 1/0/T/F/TRUE/FALSE 2012-11-28 'D:/R-3.5.1/library/readr/extdata/challenge.csv' 1005 y 1/0/T/F/TRUE/FALSE 2020-01-13 'D:/R-3.5.1/library/readr/extdata/challenge.csv' .... ... .................. .......... ................................................ See problems(...) for more details.

有两个打印输出:查看前1000行生成的列规范和前5个解析失败。显式地找出问题()总是一个好主意，这样您就可以更深入地研究它们:

problems(challenge) # A tibble: 1,000 x 5 row col expected actual file 1 1001 y 1/0/T/F/TRUE/FALSE 2015-01-16 'D:/R-3.5.1/library/readr/extdata/challenge.csv' 2 1002 y 1/0/T/F/TRUE/FALSE 2018-05-18 'D:/R-3.5.1/library/readr/extdata/challenge.csv' 3 1003 y 1/0/T/F/TRUE/FALSE 2015-09-05 'D:/R-3.5.1/library/readr/extdata/challenge.csv' 4 1004 y 1/0/T/F/TRUE/FALSE 2012-11-28 'D:/R-3.5.1/library/readr/extdata/challenge.csv' 5 1005 y 1/0/T/F/TRUE/FALSE 2020-01-13 'D:/R-3.5.1/library/readr/extdata/challenge.csv' 6 1006 y 1/0/T/F/TRUE/FALSE 2016-04-17 'D:/R-3.5.1/library/readr/extdata/challenge.csv' 7 1007 y 1/0/T/F/TRUE/FALSE 2011-05-14 'D:/R-3.5.1/library/readr/extdata/challenge.csv' 8 1008 y 1/0/T/F/TRUE/FALSE 2020-07-18 'D:/R-3.5.1/library/readr/extdata/challenge.csv' 9 1009 y 1/0/T/F/TRUE/FALSE 2011-04-30 'D:/R-3.5.1/library/readr/extdata/challenge.csv' 10 1010 y 1/0/T/F/TRUE/FALSE 2010-05-11 'D:/R-3.5.1/library/readr/extdata/challenge.csv' # ... with 990 more rows

一个好的策略是逐列工作，直到没有问题为止。这里我们可以看到x列有很多解析问题——整数值后面有尾随字符。这意味着我们需要使用双解析器。

challenge <- read_csv( readr_example("challenge.csv"), col_types = cols( x = col_integer(), y = col_character() ) ) Warning: 1000 parsing failures. row col expected actual file 1001 x no trailing characters .23837975086644292 'D:/R-3.5.1/library/readr/extdata/challenge.csv' 1002 x no trailing characters .41167997173033655 'D:/R-3.5.1/library/readr/extdata/challenge.csv' 1003 x no trailing characters .7460716762579978 'D:/R-3.5.1/library/readr/extdata/challenge.csv' 1004 x no trailing characters .723450553836301 'D:/R-3.5.1/library/readr/extdata/challenge.csv' 1005 x no trailing characters .614524137461558 'D:/R-3.5.1/library/readr/extdata/challenge.csv' .... ... ...................... .................. ................................................ See problems(...) for more details.

challenge <- read_csv( readr_example("challenge.csv"), col_types = cols( x = col_double(), y = col_character() ) ) tail(challenge) # A tibble: 6 x 2 x y 1 0.805 2019-11-21 2 0.164 2018-03-29 3 0.472 2014-08-04 4 0.718 2015-08-16 5 0.270 2020-02-04 6 0.608 2019-01-06

challenge <- read_csv( readr_example("challenge.csv"), col_types = cols( x = col_double(), y = col_date() ) ) tail(challenge) #> # A tibble: 6 x 2 #> x y #> #> 1 0.805 2019-11-21 #> 2 0.164 2018-03-29 #> 3 0.472 2014-08-04 #> 4 0.718 2015-08-16 #> 5 0.270 2020-02-04 #> 6 0.608 2019-01-06

challenge2 <- read_csv(readr_example("challenge.csv"), guess_max = 1001) #> Parsed with column specification: #> cols( #> x = col_double(), #> y = col_date(format = "") #> ) challenge2 #> # A tibble: 2,000 x 2 #> x y #> #> 1 404 NA #> 2 4172 NA #> 3 3004 NA #> 4 787 NA #> 5 37 NA #> 6 2332 NA #> # … with 1,994 more rows

challenge2 <- read_csv(readr_example("challenge.csv"), col_types = cols(.default = col_character()) ) challenge2 # A tibble: 2,000 x 2 x y 1 404 NA 2 4172 NA 3 3004 NA 4 787 NA 5 37 NA 6 2332 NA 7 2489 NA 8 1449 NA 9 3665 NA 10 3863 NA # ... with 1,990 more rows

df <- tribble( ~x, ~y, "1", "1.21", "2", "2.32", "3", "4.56" ) df #> # A tibble: 3 x 2 #> x y #> #> 1 1 1.21 #> 2 2 2.32 #> 3 3 4.56 # Note the column types type_convert(df) #> Parsed with column specification: #> cols( #> x = col_double(), #> y = col_double() #> ) #> # A tibble: 3 x 2 #> x y #> #> 1 1 1.21 #> 2 2 2.32 #> 3 3 4.56

文件写出

readr还提供了两个将数据写入磁盘的有用函数:write_csv()和write_tsv()。这两个函数都增加了输出文件被正确读入的机会:

总是用UTF-8编码字符串。
以ISO8601格式保存日期和日期时间，以便在其他地方轻松解析。

write_csv(challenge, "challenge.csv") challenge #> # A tibble: 2,000 x 2 #> x y #> #> 1 404 NA #> 2 4172 NA #> 3 3004 NA #> 4 787 NA #> 5 37 NA #> 6 2332 NA #> # … with 1,994 more rows write_csv(challenge, "challenge-2.csv") read_csv("challenge-2.csv") #> Parsed with column specification: #> cols( #> x = col_double(), #> y = col_logical() #> ) #> # A tibble: 2,000 x 2 #> x y #> #> 1 404 NA #> 2 4172 NA #> 3 3004 NA #> 4 787 NA #> 5 37 NA #> 6 2332 NA #> # … with 1,994 more rows

write_rds(challenge, "challenge.rds") read_rds("challenge.rds") #> # A tibble: 2,000 x 2 #> x y #> #> 1 404 NA #> 2 4172 NA #> 3 3004 NA #> 4 787 NA #> 5 37 NA #> 6 2332 NA #> # … with 1,994 more rows

feather包实现了一种快速的二进制文件格式，可以跨编程语言共享:

library(feather) write_feather(challenge, "challenge.feather") read_feather("challenge.feather") #> # A tibble: 2,000 x 2 #> x y #> #> 1 404 #> 2 4172 #> 3 3004 #> 4 787 #> 5 37 #> 6 2332 #> # ... with 1,994 more rows

r4ds

推荐阅读

request
主板市盈率、市净率及股息率的自动化抓取

本文介绍了如何通过Python脚本自动从中国指数有限公司网站抓取主板的市盈率、市净率和股息率等关键财务指标，并将这些数据存储到CSV文件中。涉及的技术包括网页解析、正则表达式以及异常处理。 ... [详细]

蜡笔小新 2024-12-15 14:26:17
request
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
case
java编写的简易计算器

主要用了2个类来实现的，话不多说，直接看运行结果，然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]

蜡笔小新 2024-12-27 18:18:10
select
使用 SQLiteJDBC 和 HikariCP 实现 Java 程序连接 SQLite 数据库

本文介绍了如何通过 Maven 依赖引入 SQLiteJDBC 和 HikariCP 包，从而在 Java 应用中高效地连接和操作 SQLite 数据库。文章提供了详细的代码示例，并解释了每个步骤的实现细节。 ... [详细]

蜡笔小新 2024-12-26 17:34:42
sum
从零构建递归神经网络：仅用NumPy实现

尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络（RNN）的门槛，但对于初学者来说，理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理（NLP）的RNN模型。 ... [详细]

蜡笔小新 2024-12-26 11:29:15
format
ASP.NET MVC中Area机制的实现与优化

本文探讨了在ASP.NET MVC框架中，如何通过Area机制有效地组织和管理大规模应用程序的不同功能模块。通过合理的文件夹结构和命名规则，开发人员可以更高效地管理和扩展项目。 ... [详细]

蜡笔小新 2024-12-25 22:53:48
format
实体映射最强工具类：MapStruct真香

实体映射最强工具类：MapStruct真香 ... [详细]

蜡笔小新 2024-12-25 16:22:17
format
Docker 自定义网络配置详解

本文详细介绍如何在 Docker 中自定义网络设置，包括网关和子网地址的配置。通过具体示例展示如何创建和管理自定义网络，以及容器间的通信方式。 ... [详细]

蜡笔小新 2024-12-16 20:26:24
case
UNP 第9章：主机名与地址转换

本章探讨了用于在主机名和数值地址之间进行转换的函数，如gethostbyname和gethostbyaddr。此外，还介绍了getservbyname和getservbyport函数，用于在服务器名和端口号之间进行转换。 ... [详细]

蜡笔小新 2024-12-27 11:26:39
select
使用 NSTimer 实现倒计时功能

本文介绍如何使用 NSTimer 实现倒计时功能，详细讲解了初始化方法、参数配置以及具体实现步骤。通过示例代码展示如何创建和管理定时器，确保在指定时间间隔内执行特定任务。 ... [详细]

蜡笔小新 2024-12-26 19:08:19
buffer
解析JSON格式文本并处理数据

本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ... [详细]

蜡笔小新 2024-12-26 16:06:09
buffer
获取计算机硬盘序列号的方法与实现

本文介绍了如何通过编程方法获取计算机硬盘的唯一标识符（序列号），并提供了详细的代码示例和解释。此外，还涵盖了如何使用这些信息进行身份验证或注册保护。 ... [详细]

蜡笔小新 2024-12-26 11:22:11
format
微软Exchange服务器遭遇2022年版“千年虫”漏洞

微软Exchange服务器在新年伊始遭遇了一个类似于‘千年虫’的日期处理漏洞，导致邮件传输受阻。该问题主要影响配置了FIP-FS恶意软件引擎的Exchange 2016和2019版本。 ... [详细]

蜡笔小新 2024-12-25 14:08:03
sum
基于决策树的性别分类分析

本文旨在探讨如何利用决策树算法实现对男女性别的分类。通过引入信息熵和信息增益的概念，结合具体的数据集，详细介绍了决策树的构建过程，并展示了其在实际应用中的效果。 ... [详细]

蜡笔小新 2024-12-20 11:57:25
format
python时间序列之ADF检验(1)

读取数据，pd.read_csv默认生成DataFrame对象，需将其转换成Series对象DataFrame和Series是pandas中最常见的2 ... [详细]

蜡笔小新 2024-12-19 18:56:32

虽虽___Hui

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章